2024/11/20 16:55:55

Распознавание речи (технологии, рынок)

Содержание

Рынок в России
- 2024
  - 10 нейросетей для озвучки текстов и генерации голосов, которые работают в России
  - В России разработали ИИ для синхронного перевода речи
- 2020: Объем рынка разговорного ИИ в России - $44 млн ($76 млн с учетом госзаказов)
Мировой рынок
- 2024: Выпущен переводчик устной речи в реальном времени для видеоконференций. Есть поддержка русского языка
- 2023: Рост объема мирового рынка ПО для перевода речи на другой язык на 14% до $1,38 млрд
Смотрите также

Рынок в России

2024

10 нейросетей для озвучки текстов и генерации голосов, которые работают в России

Современные нейросети способны генерировать высококачественную речь, которую в ряде случаев бывает сложно отличить от человеческой. Такие инструменты на основе искусственного интеллекта востребованы во многих областях. Они применяются при создании голосовых чат-ботов, в программах чтения текста и системах навигации, в приложениях для людей с ограниченными возможностями и в программах для профессиональных озвучек. TAdviser подготовил перечень из десяти нейросетей для генерации голосов, которые работают в России.

1. SteosVoice

Этот инструмент предоставляет широкие возможности для творчества и создания контента. Каждый пользователь получает бесплатный ограниченный доступ к высококачественному голосовому ИИ с более чем 400 всевозможными голосами. Синтез речи в виде Telegram-бота предоставляет удобный и быстрый способ преобразования текстовых сообщений в аудиоформат. Ключевые возможности сервиса:

Озвучка книг, статей, презентаций, коротких видео и пр.;
Сотни качественных голосов;
Звук на уровне студийной записи (44,1 кГц);
Бесплатный бот в Telegram;
Возможность монетизации голоса;
Изменяемая скорость повествования.

2. Lovo.ai

Это высокореалистичный генератор голоса на основе ИИ. Доступны свыше 500 голосов на 100 языках. Сервис позволяет создавать видеоролики с озвучкой для маркетинга, обучения, социальных сетей и других целей. Простой в использовании пользовательский интерфейс делает генерацию закадрового голоса легкой задачей даже для тех, кто не имеет опыта работы с аудио. Доступен бесплатный тариф с возможностью озвучки пяти минут в месяц. Функции платформы:

Синхронизация аудио и видео;
Автоматический генератор субтитров;
Клонирование голоса;
Создание изображений без авторских прав;
Универсальный API;
ИИ-помощник Genny для написания сценариев.

3. Zvukogram

Сервис поддерживает более 10 языков, в том числе русский. Возможна озвучка текстов для видеоплатформ, рекламы, презентаций, новостей и других сценариев. Служба обладает понятным пользовательским интерфейсом с подсказками и работает по системе токенов. Возможности:

Создание диалогов и мультиязычной озвучки;
Более 1000 голосов;
Обработка длинных текстов;
Формирование серии файлов;
Совместимость с монтажным ПО.

4. FreeTTS

Этот полностью бесплатный ресурс предоставляет неограниченное количество попыток генерации. Система предельно проста в использовании — достаточно вставить в диалоговое окно исходный текст и выбрать предпочитаемый голос диктора. Вместе с тем, признают разработчики, сервис несколько уступает по качеству платным коммерческим платформам. Функции:

Около 30 русскоязычных голосов;
Возможность воспроизведения результата на сайте;
Загрузка итогового файла в формате МР3;
Обработка до 2000 символов;
Отсутствие оплаты.

5. Robivox

Сервис для озвучки текста реалистичным голосом, созданным на основе настоящей записанной речи диктора. Без регистрации можно обработать текст длиной до 100 символов. В платном режиме за 100 рублей предлагаются около 100 минут озвучки обычным голосом и 20 минут голосом Pro. Возможности:

Поддержка более 100 языков;
Регулировка скорости;
Простой пользовательский интерфейс;
Поддержка форматов сгенерированных файлов МР3 и WAV;
Работа с регистрацией и без.

6. PlayHT

Обширная библиотека ИИ-голосов этого сервиса охватывает все основные языки (в том числе русский) и акценты мира. Можно сохранять голос говорящего и его родной акцент при переводе и дубляже на другие языки. Доступны эмоциональные стили речи.

Более 800 естественно звучащих голосов;
Контекстно-зависимые, эмоциональные и выразительные модели преобразования текста в речь;
Клонирование голоса;
Многоязычный синтез речи;
Онлайн-студия преобразования текста в голос.

7. Deepgram

Платформа голосового ИИ предоставляет программный интерфейс (API) для преобразования речи в текст, а также текста в речь. Доступен бесплатный кредит на $200, а платные услуги оказываются по модели Pay As You Go (оплата по мере потребления).

Поддержка нескольких ИИ-моделей;
Унифицированный API-интерфейс;
Возможность интеграции голосового ИИ в собственные приложения;
Несколько десятков языков, включая русский.

8. Murf.ai

Платформа предоставляет выбор из более чем 200 голосов на нескольких десятках языков, включая русский. Сервис предлагает возможность тонкой настройки различных аспектов сгенерированного голоса, включая высоту тона, скорость, произношение, паузы и акцент, делая его более естественным. Возможности:

Клонирование голоса;
Озвучивание видеоматериалов;
Создание нескольких версий закадрового голоса;
API для интеграции в различные приложения, веб-сайты или другие сервисы;
Удобный пользовательский интерфейс.

9. Speechify

Данная система способна работать с различными документами, включая файлы PDF. При помощи мобильного приложения можно сделать снимок любой страницы, а затем преобразовать текст в речь. Поддерживаются около 60 языков, в том числе русский.

Естественно звучащие человеческие голоса;
Более 200 голосов;
Возможность регулировки скорости речи;
Интеграция с Google Drive и Dropbox.

10. Synthesys

Сервис предлагает реалистичные синтетические голоса на более чем 140 языках. Имеется бесплатный доступ, а стоимость платных подписок начинается с $20 в месяц. Применять систему можно для профессиональных озвучек и видео.

Клонирование голоса с помощью ИИ;
Аватары для преобразования текста в речь;
Поддержка более 400 вариантов голоса;
Интуитивно понятный пользовательский интерфейс.

В России разработали ИИ для синхронного перевода речи

Российские разработчики представили 11 ноября 2024 года новую технологию искусственного интеллекта для синхронного перевода между четырьмя языками: русским, английским, китайским и французским. Система будет впервые применена на IV Конгрессе молодых ученых в федеральной территории «Сириус» 27-29 ноября 2024 года.

Как передает «Наука.рф», доступ к переводу будет осуществляться через систему QR-кодов в залах деловой программы, что позволит участникам оперативно выбирать необходимый язык перевода в режиме реального времени.

В России разработали ИИ для синхронного перевода речи. Его будут использовать на конгрессе ученых в «Сириусе»

Советник Президента России Антон Кобяков подчеркнул, что успешные практики Конгресса молодых ученых будут масштабированы на другие события для удобства наших зарубежных гостей.

На конгресс подано более 500 заявок от представителей научного сообщества из стран БРИКС, включая Бразилию, Китай, Индию, ЮАР, а также из Германии, Франции, Швейцарии и других государств.Как работает институт «цифровых атташе», и в каких странах ждут российских ИТ-экспортёров. Интервью с Владимиром Дождёвым, Минпромторг 7.1 т

Помимо системы искусственного интеллекта, на мероприятии будут работать 250 волонтеров-переводчиков из ведущих российских вузов, владеющих английским, арабским, бенгальским, китайским, португальским и другими языками.

Выставочные стенды конгресса будут оснащены QR-кодами со ссылками на описание экспозиций на русском, английском, арабском, китайском и португальском языках. Сайт мероприятия уже доступен в русской, английской и китайской версиях.

Технология призвана облегчить международную коммуникацию и сделать более доступным обмен научными знаниями между специалистами из разных стран. Разработка является частью программы по развитию отечественных технологий искусственного интеллекта.

В дальнейшем планируется расширение функционала системы и добавление новых языков, включая арабский и португальский, что позволит охватить более широкую международную аудиторию.

Конгресс является основным ежегодным мероприятием Десятилетия науки и технологий в России, объявленного Президентом России Владимиром Путиным на период 2022-2031 годов.^[1]

2020: Объем рынка разговорного ИИ в России - $44 млн ($76 млн с учетом госзаказов)

Компания Just AI, специализирующаяся на технологиях разговорного искусственного интеллекта, машинного обучения и понимания естественного языка, 16 августа 2021 года представила свои прогнозы развития рынка разговорного ИИ до 2025 года, составленные по итогам проведенного исследования^[2].

Аналитика охватывает инструменты и платформы разговорного ИИ — технологии для синтеза и распознавания речи, клонирования голосов, речевой биометрии, голосовой активации, платформы для понимания и генерации естественного языка, средства визуальной разработки диалоговых сценариев в голосовых или текстовых каналах, платформы для анализа речи, а также решения для исходящих обзвонов и в сфере кастомных голосовых ассистентов для бизнеса, навыков для умных устройств и метаассистентов (Алиса, Маруся и пр.), входящую телефонию и умный IVR, разработку чат-ботов на заказ.

Источник: Just AI

Объем российского рынка в 2020 году составил $44 млн или $76 млн с учетом госзаказов. Прибавляет индустрия 46-93% от года к году, общий рост с 2015 года составил 1288%. По прогнозам Just AI, к концу 2021 году объем рынка достигнет $80 млн или $120 млн с учетом госзаказов. В ближайшие пять лет индустрия сохранит динамику роста от 38% до 81% и в 2025 году выйдет на объем $561 млн (без учета госзаказов).

Источник: Just AI

«На рынке разговорного ИИ в России работают более 100 компаний, многие из них растут на 200-400% в год. Далеко не всегда они конкурируют между собой: значительная часть игроков специализируется на отдельных отраслях, типах заказчиков и технологиях и может доминировать в своих сегментах, даже имея небольшую долю на рынке в целом», — отметил управляющий директор Just AI Кирилл Петров.

В структуре выручки группы компаний ЦРТ в 1 млрд+ рублей в год более 80% занимает доход от государственных контрактов. Just AI c объемом выручки в 500 млн+ руб. фокусируется на сегментах NLP (Natural Language Processing)/NLU (Natural Language Understanding)/DM (Dialog Management)-платформ, No-code/Low-code конструкторов и кастомных голосовых ассистентов. В группе компаний с выручкой в 200 млн+ руб. в год представлены Yandex.Cloud (речевые технологии), 3iTech (решения для госсектора, речевые технологии и платформы речевой аналитики) и "АТС Аэро" (решения для госсектора, исходящие телефонные коммуникации).

Наибольшими сегментами на рынке в 2020 году были речевые технологии (синтез и распознавание речи, клонирование голосов, речевая биометрия, голосовая активация) и NLP-платформы (обработка естественного языка). Быстрее всего в 2020 году росли решения для бизнеса и NLP-платформы.

По прогнозам Just AI, через пять лет половину всего российского рынка займут таргетированные на определенные бизнес-задачи и отрасли разговорные ИИ-решения, такие как голосовой поиск по каталогу для ритейла, виртуальные ассистенты для ЖКХ, чат-боты для отелей. Они будут ежегодно прибавлять 100-120%, интерес к ним уже проявляют медицина, HoReCa, e-commerce, туризм, индустрия красоты и др.

По мнению аналитиков, запросы на NLP-платформы со стороны крупного бизнеса продолжат расти еще несколько лет. Это будет происходить за счет включения новых отраслей и расширения сферы применения обработки естественного языка. Визуальные конструкторы для разработки ботов с увеличением интереса со стороны SMB-компаний начнут активно расти и специализироваться под узкие задачи и предоставление готовых шаблонов и инструментов. Рост сегмента кастомных ассистентов, решений для клиентской поддержки, навыков для ассистентов, входящего IVR, решений для рекрутинга и HR будет ускоряться вместе с появлением новых разработчиков и вовлечением новых категорий клиентов из SMB, а дополнительным стимулом станет увеличение рынка ассистентов и умных колонок.

Исходящие телефонные коммуникации продолжат бурно расти до 2022 года. Далее стоит ожидать введения правового регулирования, направленного на борьбу против спама, и широкого распространения технологий защиты от спама, что приведет к падению рынка. После адаптации к новым ограничениям будет возможен рост сегмента, возможно, в новых сферах и отраслях, полагают в Just AI. Речевую аналитику в ближайшие годы ждет умеренный рост, который может замедлиться с развитием NLP-технологий и отказом контакт-центров от штата сотрудников. Речевые технологии переживают рост потребления, но с увеличением доступности моделей и датасетов и появлением новых игроков и инхаус-разработок столкнутся с существенным ценовым давлением.

Мировой рынок

2024: Выпущен переводчик устной речи в реальном времени для видеоконференций. Есть поддержка русского языка

В середине ноября 2024 года немецкая компания DeepL сообщила о внедрении в свою систему онлайн-перевода функции DeepL Voice. Она позволяет переводить устную речь с одного языка на другой в реальном времени, что будет полезным при личном общении и видеозвонках. Подробнее здесь.

2023: Рост объема мирового рынка ПО для перевода речи на другой язык на 14% до $1,38 млрд

В 2023 году объем глобального рынка программного обеспечения для перевода речи на другой язык достиг $1,38 млрд. Для сравнения, в 2022-м затраты в данной области оценивались в $1,21 млрд. Рост зафиксирован на уровне 14%, о чем говорится в исследовании Market Research Future, результаты которого представлены в середине ноября 2024 года.

Рассматриваемый сектор активно развивается, что обусловлено несколькими факторами. По мере того, как предприятия и организации расширяют свою деятельность по всему миру, увеличивается потребность в эффективной коммуникации на разных языках. Этот спрос еще больше подпитывается развитием модели удаленной работы и международного сотрудничества. Компании инвестируют значительные средства в технологии перевода для повышения вовлеченности клиентов и улучшения пользовательского опыта. Использование таких инструментов в мобильных приложениях, конференц-системах и платформах поддержки становится все более актуальным.

Еще одним драйвером отрасли названы достижения в области искусственного интеллекта и машинного обучения. Интеграция таких алгоритмов способствует более точному распознаванию речи и переводу, позволяя системам учиться на предыдущих взаимодействиях и совершенствоваться с течением времени. По мере того, как алгоритмы машинного обучения становятся все более сложными, возможности по обработке сленга и региональных диалектов улучшаются, что делает технологию более удобной и надежной.

Положительное влияние на отрасль оказывают увеличение количества устройств с голосовым управлением и развитие концепции умного дома. Потребители все чаще ищут решения, которые легко интегрируются в их повседневную жизнь. Вместе с тем популярность социальных сетей создает спрос на перевод в реальном времени для улучшения коммуникации между пользователями из разных стран.

По типу систем аналитики выделяют средства машинного обучения, инструменты для обработки естественного языка, облачные платформы и локальные решения. В 2023 году на продукты первого типа пришлось $0,45 млрд. ПО для обработки естественного языка принесло $0,38 млрд. Выручка по направлениям облачных и локальных решений оценивается в $0,32 млрд и $0,23 млрд соответственно. Значимыми игроками отрасли названы:

В географическом плане лидирует Северная Америка, обеспечившая выручку в размере $0,55 млрд: доминирование региона обусловлено активным внедрением передовых технологий и потребностью в коммуникациях на разных языках. Далее следует Европа с затратами на уровне $0,4 млрд, а замыкает тройку Азиатско-Тихоокеанский регион с $0,25 млрд. Южная Америка принесла $0,1 млрд, Ближний Восток и Африка — $0,08 млрд.

В исследовании говорится, что компании осознают важность эффективной коммуникации для взаимодействия с международными клиентами, партнерами и заказчиками. Это способствует интеграции технологий перевода речи в различные системы. Организации, которые внедряют такие решения, получают конкурентное преимущество, а следовательно, могут увеличить продажи.

По итогам 2024 года выручка на мировом рынке ПО для перевода речи на другой язык оценивается в $1,58 млрд. Аналитики Market Research Future считают, что в дальнейшем показатель CAGR (среднегодовой темп роста в сложных процентах) составит 14,29%. В результате, к 2032 году затраты в глобальном масштабе могут подняться до $4,6 млрд.^[3]